-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add Ji-Paraná-RO spider #781
base: main
Are you sure you want to change the base?
Conversation
66ef945
to
7e54452
Compare
bdde5ec
to
81d9b2d
Compare
81d9b2d
to
cec48a5
Compare
a71b2e2
to
ebfbcd0
Compare
@giuliocc @trevineju Segue raspador para revisão. Conforme discutido no espaço para sprint, a listagem de Ji-Paraná para 2023 parou de ser publicada no dia 2023-04-28. Novos diários poderiam ser extraídos usando a estrutura de https://diariooficialjp.com.br/anop.php?ano=2023 Link para o log de raspagem explícita até o dia 2023-04-28: https://gist.githubusercontent.com/ayharano/aa4207fb1d38ac70e2755fd5d8994c04/raw/14cda9d6a4c101fdc0a8b1079f7a921045bec601/ro_ji-parana.log |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Seria preferível a gente manter dois raspadores distintos aqui. Um pra 2013 em diante e outro de 2013 para trás. A manutenção vai ficar mais simples pois podemos focar no raspador atual e vai ficar melhor de revisar também.
Voltando esse PR para rascunho até o término da divisão do spider em dois |
Segue os logs e CSVs de cada um dos raspadores: ro_ji_parana_2010_2013: ro_ji_parana (junho de 2013 em diante): |
a7780cd
to
e50412d
Compare
AO ABRIR um Pull Request de um novo raspador (spider), marque com um
X
cada um dos items do checklistabaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.
Checklist - Novo spider
start_date
eend_date
definidos) ao menos uma vez e os dados retornados estavam corretos.log/ERROR
igual a zero).start_date
no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.Descrição
resolve #687
O local onde os diários estão tem algum tratamento de rate limit que assim que algum limite é acionado, páginas que existem devolvem 403.
Ajustando parâmetros de limites do spider, em torno de um pouco menos de 2h foi possível obter diários de quase 13 anos sem nenhum acionamento de 403.